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摘 要 : 词 向 量 使 用 低 维 稠密 向 量 表 示 词 ， 通 过 向 量 运 
于 短 阵 分 解 的 词 向 量 方法 进行 了 研究 ， 发 现 降 维 前 相似 
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算 
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能 够 反映 词 间 关系 ， 被 广泛 应 用 于 自然 语言 处 理 任务 。 对 基 
矩阵 质量 与 词 向 量 质 量 存 在 线性 相关 性 ， 提 出 了 一 种 基于 中 


心 化 相似 度 矩 阵 的 方法 。 该 方法 使 得 相似 〈 不 相似 或 弱 相 似 ) 词 间 的 相似 程度 相对 增强 (减弱 ) 。 在 WS-353 和 RW 
数据 集 的 词语 相似 性 实验 中 验证 了 所 提出 方法 的 有 效 性 ， 两 个 数据 集 下 词 向 量 质量 最 高 提升 0.2896 和 0.1801。 中 心 


化 能 够 提升 降 维 前 相似 度 矩 阵 质 量 ， 进 而 提升 词 向 量 质 量 。 
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Method of word vector based on centring similarity matrix 


词 向 量 43 可 以 从 大 量 的 未 标注 语 料 中 提取 词 
因此 引起 了 广泛 的 关注 
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similarity matrix, moreover it can improve the quality of word vector. 
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Abstract: The word vector, which represents word by a low dimensional dense vector. The relationships between words are 
denoted by vector operations. Hence it is broadly applied in tasks of natural language processing. The method of word vector 
based on matrix factorization is studied. It found that there is a linear correlation between the quality of no dimension reduction 
matrix and the quality of word vector. Furthermore, it derived a method of the word vector, which based on a kind of centring 
similarity matrix. This method makes the similarity between similar (dissimilar or weakly similar) words relatively enhanced 
(weakened) . In the word similarity experiments of WS-353 and RW datasets, the effectiveness of the proposed method is verified. 


The highest quality of the word vectors among the two datasets is 0.2896 and 0.1801. Centralization can improve the quality of 


库 中 的 每 个 
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表示 为 一 个 低 维 实数 向 量 ， 建 


间 的 映射 ， 词 
以 用 于 计算 词 
由、 文本 分 类 
任务 。 


间 语 义 越 相似 ， 其 
间 相 似 度 ， 
5,6]、 词 性 标注 出 71、 


立 离散 词 与 实数 域 特征 向 量 之 
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向 量 表示 越 接近 


]。 词 向 量 可 


作为 特征 
情感 分 析 [63 等 


用 于 词义 消 卜 
自然 语言 处 理 


直接 应 


词 向 量 的 方法 可 分 为 基于 矩阵 分 解 的 方法 和 基于 预测 的 方 


LSA (latent semantic analysis ) 


法 319。 基于 矩阵 分 解 的 方法 源 自 
文 内 容 相 似 ， 则 词 本 身 的 含义 也 


词 的 分 布 假设 ， 即 词 的 上 下 
相似 各。 该 方法 可 以 追溯 


到 


11,12] 


， 通 过 分 解 词 -文档 矩阵 D9 


而 获得 词 向 量 。 而 目 


前 普遍 使 用 的 是 词 


-上 下 文 共 现 外 权重 为 


词 的 语义 空间 分 布 第 阵 赋值 ， 从 而 获得 词 向 量 。 这 种 表示 方法 
最 早 源 自 于 HAL (hyperspace analogue to language ) 03， 利 用 
滑动 窗口 构造 词 一 上 下 文 共 现 矩阵 。 此 后 ， 基 于 算 阵 分 解 的 词 
向 量 方法 都 是 使 用 词 一 上 下 文 共 现 矩阵 进行 构造 的 。 基 于 预测 
的 词 向 量 方法 源 自 神 经 网 络 模型 站 。Mikolov 等 人 号 5 提出 
CBOW (continue bag of words) 和 Skip-gram 两 种 基于 预测 的 


词 向 量 方法 ， 因 为 其 训练 得 到 的 词 向 量 有 很 好 的 语义 特性 从 而 
得 到 了 广泛 的 关注 加。Levy 等 人 

方法 与 skip-gram 在 词语 相似 性 任务 
试 多 种 不 同 的 参数 ， 发 现 两 种 方法 在 大 多 数 参 数 设 


能 够 达到 相近 效果 。 


始 关注 其 与 基于 矩阵 分 解 的 词 


究 其 理论 的 可 解释 


negative sampling ) 
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性 。 
的 训 


19 对 基于 矩阵 分 解 的 词 向 量 


上 进行 了 细致 的 分 析 ， 尝 
的 方法 中 
Skip-gram 被 广泛 使 用 后 ， 研 究 者 们 开 


向 量 方法 之 间 的 关系 ， 并 重点 研 
Levy 等 人 071 表 明 SGNS (skip-gram 
练 方法 可 看 做 加 权 和 矩阵 分 解 ， 这 种 加 
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权 和 矩阵 分 解 等 价 于 隐 式 分 解 SPPMI (shift positive PMI〉 和 矩阵 。 


Li 等 人 0 也 发 现 SGNS 等 价 于 一 种 词 - 上 下 文 共 现 矩阵 分 解 ， 
根据 这 种 等 价 性 引入 监督 信息 ， 在 词类 比 任务 中 给 定 10% 的 
训练 数据 就 能 取得 9% 的 性 能 提升 。Pennington 等 人 09 利 用 
Skip-gram 能 够 挖掘 出 词 间 线 性 关系 的 特性 以 及 SGNS 与 矩阵 
分 解 的 等 价 关系 提出 了 Glove 模型 ， 发 现 该 模型 在 词类 比 任务 
中 表现 较 好 。 由 于 skip-gram 与 基于 和 矩阵 分 解 的 词 向 量 方法 都 
能 够 看 成 是 针对 词 一 上 下 文 共 现 矩阵 进行 的 研究 ， 两 者 得 
到 的 词 向 量 的 质量 具有 可 比 性 ， 因 此 许多 研究 者 再 次 开始 了 基 
于 矩阵 分 解 的 词 癌 量 方法 的 研究 。 其 中 ， 最 具有 代表 性 的 是 


地 尊 


回 


Hellinger PCA (hellinger principal component analysis, HPCA) 
09 方 法 。 文 献 [19,20] 利 用 HPCA 的 方法 获得 词 向 量 ， 首 先 使 用 
条 件 概 率 为 词 一 上 下 文 共 现 矩 阵 进行 赋值 ， 然 后 使 用 Hellinger 


距离 对 共 现 矩 阵 的 每 两 行 计算 相似 度 ， 得 到 相似 度 和 矩阵 ， 最 后 
对 相似 度 矩 阵 进行 降 维 得 到 词 向 量 ， 发 现在 词语 相似 性 任务 和 
词类 比 任务 中 效果 较 好 。 

本 文 基于 文献 [19,20] 中 的 算法 过 程 对 基于 抢 阵 分 解 的 词 向 
量 方法 进行 了 研究 ， 发 现 降 维 前 的 相似 度 矩 阵 直接 影响 词 向 量 
的 质量 ， 通 过 Pearson 相关 系数 验证 了 两 者 之 间 具 有 较 强 的 线 
性 相关 性 。 并 且 ， 提 出 了 一 种 基于 中 心 化 相似 度 和 矩阵 的 词 向 量 
方法 。 该 方法 通过 对 相似 度 矩 阵 中 心 化 ， 使 得 相似 词 间 的 相似 
程度 相对 增加 ， 不 相似 或 弱 相 似 的 词 间 的 相似 程度 相对 减弱 。 
在 词语 相似 性 任务 上 ， 验 证 了 该 方法 的 有 效 性 ， 中 心 化 相似 度 
矩阵 获得 的 词 向 量 的 质量 明显 好 于 非 中 心 化 相似 度 矩 阵 获得 的 
词 向 量 的 质量 。 


1 ”基于 和 矩 阵 分 解 的 词 向 量 方法 


基于 矩阵 分 解 的 词 向 量 方法 通过 上 下 文 分 布 的 共 现 情况 措 
述 词 的 语义 ， 具 体 步 又 为 P12， 首先 构建 词 一 上 下 文 共 现 盾 


最 后 对 A 进 行 降 维 得 到 词 向 量 和 矩阵 E 。 
1.1 词 - 上 下 文 共 现 和 矩阵 的 构建 

词 一 上 下 文 共 现 矩阵 C 的 每 个 元 素 表示 词 w 与 上 下 文 记 
c 的 共 现 权重 fw,c ) 。v 为 待 表 示 词 的 数量 ， 六 为 上 下 文 词 
的 数量 。 因 此 ，C 为 yxD 的 矩阵 ， 每 一 行为 词 w 基于 上 下 
文 词 c 的 向 量 表示 ， 即 
C=[tGw,c),tWw,c),...,t(w,c,)]| 

t(w,,c,) 的 计算 方法 有 词 频 CTF ) 、 点 互信 息 (PMI) 
0720 和 条 件 概率 〈CP) BC。 文献 [17] 中 提出 将 PMI 的 方法 改 
为 PPMI， 并 使 用 SPPMI 方法 得 到 与 Skip-gram 模型 等 价 的 结 
论 。 文 献 [20] 与 Glove 模型 则 使 用 条 件 概 率 计 算 t(w,,c,) 。 权 重 
体 计算 方法 如 表 1 所 示 ， 其 中 乓 wc,) 表示 w 与 
tk 现 的 次 数 ，#(w) 和 #(c,) 分 别 表示 w 和 在 语料库 中 出 现 
的 次 数 ，W 为 语料库 中 词 的 总 数 。 当 w 和 c 未 共 现时 ， 
to (w,c)=log0=-o 。 因 此 本 文 规 定 ， 当 大 w,c)=0 时 ， 


PMI 
i (Ww,c),)=0°。 


1(w,,c,) 


阵 C; 然后 对 C 的 每 两 行进 行 相似 度 计 算得 到 相似 度 和 矩阵 A; 
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表 1 权重 1t(w,,c,) 的 计算 方法 


方法 名 称 计算 方法 
词 频 fF" (WC))=#(wW,,c,) 
TE A anh) 
= Ww,, = 一 
ia 
1°( ) = 
条 件 概 率 Wi,C)) = 大 


1.2 ”相似 度 和 矩阵 的 构建 
对 词 - 上 下 文 共 现 矩阵 C 中 的 每 两 行 向 量 C 和 0C, 做 相似 
度 计 算得 到 对 称 的 相似 度 和 矩阵 A，A ,表示 w 和 w, 的 相似 度 
Sim(w,,w,)。 sim(w,,w,) 的 计算 方法 有 余弦 相似 度 P3]、 欧 氏 距 
离 053]、Hellinger 距离 0220 等 。 本 文 使 用 余弦 相似 度 和 Hellinger 
距离 两 种 方法 对 C 进行 相似 度 计 算 。 
余弦 相似 度 是 常见 的 相似 度 计算 方法 ， 如 式 (1) 所 示 。 
G0 
[ClxlC,| 
Hellinger 是 用 来 度量 两 个 离散 概率 分 布 的 相似 度 。 因 此 ， 
需要 对 待 表示 词 的 向 量 做 归 一 化 处 理 ， 处 理 后 的 向 量 为 P : 


LI 


(D) 


Sim™ (w,, w,) = 


-[ t(w,c,) 1(w,c,) 1(w,c,) 


到 有 
> twc) > tc) Ditw,c) 
k=] 大 =1 k=1 


则 Hellinger 距离 的 计算 公式 如 式 (2)〉 所 示 。 


ww 三 [Vpe -Vpn (2) 


1.3 ”和 矩阵 分 解 

由 于 相似 度 和 矩阵 A 是 对 称 方 阵 ， 因 此 本 文 使 用 特征 值 分 
解 对 4 进行 降 维 ， 得 到 词 向 量 和 矩阵 后。 特征 值 分 解 是 只 保留 
前 4g 个 特征 值 对 应 的 特征 向 量 达到 降 维 的 目的 ， 特 征 值 越 大 ， 
对 应 的 特征 向 量 方向 上 包含 的 信息 量 越 多 。 通 过 特征 值 分 解 得 
到 前 zx 个 特征 值 对 应 的 特征 向 量 ， 即 对 应 了 该 矩阵 最 主要 的 4 
个 变化 方向 ， 利 用 这 4 个 变化 方向 就 可 以 近似 这 个 矩阵， 实现 


Ph 


降 维 可 以 看 成 是 将 4 映射 至 一 个 低 维 空间 ， 得 到 A 的 映 
射 矩 阵 A， 使 得 A 与 4 的 差 值 尽量 小 。 对 A 进 行 特征 值 分 解 ， 
如 式 〈3) 所 示 ， 其 中 Q 为 A 的 特征 向 量 和 矩阵， 三 为 特征 值 矩 


A=QQ G3) 
因此 ， 可 以 通过 对 5 进行 排序 ， 选 择 前 4 个 特征 值 所 对 
应 的 特征 向 量 对 4 进行 表示 。 


本 文 利用 文献 [12] 中 Caron 等 人 提出 的 Q5 _、Q5? 形 式 进 
行 降 维 。Levy 等 人 提出 最 佳 的 pb 值 应 为 p<1P3]。 文 献 [24] 中 


更 提出 p=0.5 时 结果 最 好 。 因 此 ， 我 们 对 4 分 解 出 的 特征 值 
进行 排序 ， 使 用 前 4 个 特征 值 对 应 的 特征 向 量 与 特征 值 的 p 
次 窘 的 乘积 进行 降 维 ，p 值 为 0.5， 如 式 (4〉 所 示 。 

E=Q2," (4) 
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1.4 ”基于 和 矩 阵 分 解 的 词 向 量 方法 构造 

通过 组 合 上 述 3 种 权重 计算 方法 和 2 种 相似 度 计算 方法 ， 
构造 出 5 种 基于 矩阵 分 解 的 词 向 量 方法 ， 有 具体 如 表 2 所 示 ， 降 
维 都 采用 上 述 特征 值 分 解 方法 。 其 中 PMI 计算 结果 有 负 值 ， 
因此 不 将 PMI 与 Hellinger 距离 进行 搭配 。 


表 2 基于 矩阵 分 解 的 词 向 量 方法 
方法 名 称 ”权重 计算 方法 “相似 度 计算 方法 


TCE 词 频 余弦 相似 度 
PCE 点 互信 息 余弦 相似 度 
GCE 条 件 概率 余弦 相似 度 
THE 词 频 Hellinger 距离 
GHE 条 件 概 率 Hellinger 距离 


2 ”基于 中 心 化 的 相似 度 和 矩阵 优化 


本 节 将 介绍 基于 中 心 化 的 相似 度 和 矩阵 优化 方法 。 本 文中 使 
用 的 Hellinger 距离 与 余弦 相似 度 两 种 相似 度 计 算 方法 均 可 看 
作 一 种 内 积 运 算 。 根 据 核 函数 的 定义 ， 两 种 相似 度 计算 方法 均 
可 视 为 一 种 核 函 数 。 核 函数 ?529 是 两 样本 点 在 特征 空间 中 的 内 
积 ， 决 定数 据 在 特征 空间 中 的 分 布 。 其 形式 描述 如 式 (5〉 所 
示 。 其 中 X 为 输入 空间 ，Y gr ， 石 为 特征 空间 。 

k(x,z) =< 9(x),9(z) >,D:X 一 万 (5) 

文献 [26] 提 出 中 心 化 核 函数 的 方法 ， 使 用 天 代表 中 心 化 
核 函 数 ， 公 式 如 式 (6) 所 示 。 


1< 1 < 
K(X x) =< PX) 一 一 2000).p00) 一 一 2 90x) > 
Ee (9 
Et) LV Rex) LY kx) + LV kr) 
nia Nn j= nN ij=l 


如 果 在 特征 空间 中 数据 远离 原点 ， 那 么 核 矩 阵 中 的 元 素 将 
几乎 相等 ， 该 核 矩 阵 是 病态 核 矩 阵 P5I。 中 心 化 可 以 消除 由 于 
样本 远离 原点 而 产生 的 病态 核 窍 阵 的 问题 2。 依据 该 视 
基于 矩阵 分 解 的 词 向 量 方法 通过 相似 度 函 数 构造 了 特征 空间 。 
中 心 化 使 得 词 在 特征 空间 中 国 绕 原点 ， 可 使 得 相似 度 和 矩阵 中 的 
元 素 间 差别 较 大 ， 有 效 区 分 词 间 相似 程度 。 

对 相似 度 和 矩阵 4 进行 中 心 化 的 具体 方法 为 : 将 A 中 每 个 
元 素 减 去 其 所 在 行 、 列 的 平均 值 并 加 上 和 矩阵 所 有 元 素 的 平均 值 
得 到 中 心 化 后 的 相似 度 矩 阵 A， 计算 公式 如 (7) 和 (8) 所 
示 。 /为 单位 矩阵 ，M 为 VYxy 的 全 1 甜 阵 ， 即 [MI],,=1。 


1 办 jl 到 引 V 鉴 
A,=A | , 7 
”0 V4 V4 + 0" 


和 [WA (8) 

为 进一步 说 明 中 心 化 的 作用 ， 以 “lobster”【〔 龙 虾 ) 为 例 ， 
选择 了 “seafood” (海鲜 ) ，“eye”【〔 有 眼睛 )， 
(玻璃 ) ，“boy” 【男孩 ) 与 “shore” (海岸 ) 这 5 个 词 ， 
观察 在 中 心 化 前 后 上 述 词 的 相似 度 变 化 情况 ， 中 心 化 前 后 相 


“glass” 
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似 度 的 值 如 表 3 所 示 。 观 察 中 心 化 前 后 的 相似 度 值 不 难 发 现 ， 
中 心 化 前 每 组 词 的 相似 度 较为 接近 ， 分 布 在 0.27 与 0.35 之 间 。 
而 在 中 心 化 之 后 则 体现 出 了 显著 的 差异 。 例 如 “1lobster” 与 
“eye”，“lobster” 与 “seafood” 两 组 词 ， 在 中 心 化 之 前 ， 
相似 度 分 别 为 0.3238 与 0.3272。 两 组 词 具有 较为 相近 的 相似 
度 ， 即 “eye” 与 “seafood” 同 “lobster” 的 语义 关系 相同 ， 
这 显然 不 合理 。 在 中 心 化 之 后 ，“lobster” 与 “eye” 的 相似 
度 为 -0.0017，“lobster” 与 “seafood” 的 相似 度 为 0.2868 。 
“eye” 与 “lobster” 从 相似 变 为 不 相似 ， 两 组 词 的 相似 度 差 


异 明 显 。 由 此 可 见 ， 中 心 化 后 能 使 得 相似 词 的 相似 程度 相对 增 
强 ， 不 相似 或 弱 相 似 词 的 相似 程度 相对 减弱 ， 相 似 度 矩阵 更 加 
全 址 。 
表 3 中 心 化 前 后 5 组 词 相似 度 值 对 比 结果 
词 对 中 心 化 前 中 心 化 后 
(lobster, eye) 0.3238 -0.0017 
(lobster, seafood) 0.3272 0.2868 
(lobster, glass) 0.3079 0.0128 
(lobster, boy) 0.3191 -0.0165 
(lobster, shore) 0.2710 0.0340 
0.15 
04 3 ® seafood 
0.05 ® glass 
0 
-0.05 
号 -01 @ shore 
-0.15 
-02 
-0.25 ® boy @ lobster 
-03 
-001 -0008 -0006 -0.004 -0.002 0 0.002 0.004 
X 


图 1 中 心 化 前 “lobster” 等 词 的 二 维 词 向 量 的 分 布 情况 


® scafood ® eye 


® lobster ® glass 


Y 
[= 


® shore 
-0.1 ® boy 


图 2 中 心 化 后 “lobster” 等 词 的 二 维 词 向 量 的 分 布 情况 


1 与 2 分 别 展示 了 上 述 6 个 词 中 心 化 前 后 2 维 词 向 量 的 
空间 分 布 。 从 图 1 中 能 够 看 出 在 中 心 化 前 ， 所 有 的 词 聚 集 在 原 
点 左 侧 区 域 。 大 多 数 词 与 “lobster” 的 距离 几乎 相同 ， 看 不 出 
哪些 词 与 其 更 相似 或 更 不 相似 。 在 中 心 化 后 ， 所 有 的 词 均 围 绕 
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原点 ， 可 明显 看 出 “lobster”" 与 “eye” 的 距离 大 于 “lobster” 表 6 WS.353 数据 集 余弦 相似 度 的 词 向 量 质量 
与 “seafood” 在 距离 。 由 此 可 见 ， 中 心 化 能 够 使 相似 的 词 在 中 心 化 情况 TCE PCE GCE THE GHE 
空间 中 的 分 布 相对 较 近 ， 不 相似 或 弱 相似 的 词 在 空间 中 的 分 布 中 心 化 后 。 0.6253 0.4865 0.6257 0.5787 0.5787 
相对 较 远 ， 词 向 量 更 加 合理 ， 词 能 够 得 到 更 好 的 词 向 量 表示 。 中 心 化 前 。 0.5556 02691 05544 03670 03828 
3 ”实验 性 能 提升 ”0.0697 02174 0.0713 0.2117 0.1959 
en 表 7 RW 数据 集 余弦 相似 度 的 词 向 量 质量 

本 文 使 用 2015 年 维基 百科 英文 语料库 ! 作 为 训练 集 ， 共 中 心 化 情况 TCE PCE GCE THE GHE 
3,991,454 篇 。 在 预 处 理 过 程 中 将 训练 集中 的 词 处 理 成 小 写 并 中 心 化 后 ”0.3351 0.2354 0.3324 0.2695 0.2777 
去 除 标 点 符号 。 由 于 训练 集 的 词汇 量 较 大 ， 为 方便 计算 ， 本 文 中 心 化 前 。 02937 0.1826 0.303 0.2534 0.2809 
选择 去 除 部 分 高 频 词 与 低频 词 ， 使 用 训练 集中 频率 居中 (10- 性 能 提升 ”0.0414 0.0528 0.0294 0.0161 -0.0032 
6~105) 的 词 构建 词 表 ， 共 计 有 30,946 个 词 。 词 表 的 选择 可 参 
考 文献 [20]。 \ 体 分 析 如 下 : 

前 ， 评 价 词 向 量 的 质量 是 通过 计算 两 个 词 的 相似 度 来 进 a) 对 相似 度 和 矩阵 进行 中 心 化 后 比 中 心 化 前 的 结果 好 ， 中 

行 的 ， 因 此 在 词语 相似 性 任务 中 对 本 文 训练 出 的 词 向 量 进行 评 心 化 相似 度 矩 阵 能 够 提升 词 向 量 的 质量 。 根 据 表 4 和 表 6， 在 


价 。 使 用 余弦 相似 度 及 内 积 相似 度 两 种 方法 判断 两 个 词 向 量 间 ”WS-353 数据 集中 ， 中 心 化 前 后 训练 得 到 的 词 向 量 在 点 积 相 似 
的 相似 程度 。 余 弦 相 似 度 是 常用 的 计算 两 个 词 向 量 相似 度 的 计 度 和 余弦 相似 度 的 结果 中 都 是 中 心 化 后 的 结果 好 于 比 中 心 化 前 
算 方法 。 由 式 (4) 对 词 向 量 做 内 积 相似 度 相当 于 对 相似 度 甜 的 结果 。 根 据 表 5 和 7， 在 RW 数据 集中 ， 中 心 化 后 的 结果 同 
阵 的 近似 矩阵 进行 还 原 ， 因 此 可 便于 揭示 相似 度 矩 阵 与 词 向 量 。 样 好 于 中 心 化 前 的 结果 。 
质量 的 相关 性 。 使 用 Spearman 相关 系数 [27 对 余弦 相似 度 和 内 b) 中 心 化 后 得 到 的 词 向 量 在 点 积 相 似 度 的 方法 下 提升 幅 
积 相似 度 两 种 方法 计算 出 的 相似 度 与 人 工 标注 的 词 相似 度数 据 。 度 比 使 用 余弦 相似 度 大 。 在 WS-353 数据 集中 ， 使 用 点 积 相似 
集 进行 评价 。 公 开 的 人 工 标注 词 相似 度数 据 集 选 择 WS-353P8 度 计算 词 向 量 相似 度 时 ( 表 4) ， 中 心 化 后 比 中心 化 前 提高 
和 RWP9，WS-353 是 由 常见 的 353 对 词组 成 ， 主 要 标注 了 名 ”0.2896; 使 用 余弦 相似 度 时 ( 表 6) ， 中 心 化 后 比 中心 化 前 提 
词 、 动 词 及 形容 词 间 的 相似 度 外 ，RW 是 由 斯 坦 福 稀 有 词汇 或 。 高 了 0.2174。 在 RW 数据 集 上 ， 点 积 相 似 度 计算 词 向 量 相似 度 


一 


词法 复杂 的 词 对 构成 。 时 《〈 表 5) ， 中 心 化 后 比 中 心 化 前 提高 0.1801; 使 用 余弦 相似 
对 比方 法 选择 所 构建 的 5 种 基于 抑 阵 分 解 的 词 向 量 方法 度 时 ( 表 7) ， 中 心 化 后 比 中 心 化 前 仅 提高 了 0.0528 。 
( 表 2) ， 以 及 Skip-gram 和 Glove。 上 述 所 有 模型 均 在 5 窗口 c) 对 于 词 向 量 相似 度 计算 方面 ， 点 积 相 似 度 更 适 于 WS- 
及 100 维 的 条 件 下 训练 词 向 量 001539 。 353 数据 集 ， 而 RW 数据 集 更 适合 余弦 相似 度 。 在 WS-353 数 
3.2 ”实验 结果 与 分 析 据 集 中 ， 通 过 比较 表 4 和 6 的 中 心 化 后 训练 出 的 词 向 量 的 结果 
3.2.1 词语 相似 性 实验 发 现 ， 使 用 点 积 相 似 度 的 最 好 结果 为 0.6401， 使 用 余弦 相似 度 
表 4 至 表 7 分 别 展示 了 在 不 同 数据 集 与 相似 度 计 算 方 法 下 ”的 最 好 结果 为 0.6257， 点 积 相 似 度 的 结果 好 于 余弦 相似 度 的 结 
的 实验 结果 。 果 ， 且 在 各 模型 下 点 积 相似 度 的 结果 都 好 于 余弦 相似 度 的 结果 。 
表 4 WS.353 数据 集 点 积 相似 度 的 词 向 量 质量 在 RW 数据 集中 ， 通 过 比较 表 5 和 7 中 心 化 后 训练 出 的 词 向 量 
中 心 化 情况 TCE PCE GCE 1HE GHE 的 结果 发 现 ， 使 用 点 积 相似 度 的 最 好 结果 为 0.3098， 使 用 余 弦 
相似 度 的 最 好 结果 为 0.3351， 余 弦 相 似 度 的 结果 好 于 点 积 相似 


中 心 化 后 0.6325 0.5305 0.6401 0.6111 0.6136 


度 的 结果 ， 且 在 各 模型 下 余弦 相似 度 的 结果 都 好 于 点 积 相似 度 


中 心 化 前 0.5397 0.2409 0.5614 0.3955 0.4057 


性 能 提升 0.0928 0.2896 0.0787 0.2156 0.2079 的 结案。 
d) 中 心 化 后 GCE 模型 训练 出 的 词 向 量 在 WS-353 数据 集 
表 5 RW 数据 集 点 积 相似 度 的 词 向 量 质量 下 表现 最 好 ， 中 心 化 后 TCE 模型 训练 出 的 词 向 量 在 RW 数据 
中 心 化 情况 TCE PCE GCE THE GHE 集 下 表现 最 好 。 无 论 使 用 点 积 相 似 度 还 是 余弦 相似 度 ， 在 WS- 
中 心 化 后 0.3098 0.2117 0.2989 0.2431 0.2521 353 数据 集 上 ， 中 心 化 后 GCE 都 获得 了 最 好 结果 ， 达 到 0.6401 
中 心 化 前 ”0.1731 0.0316 0.1731 0.0648 0.0778 与 0.6257。 而 在 RW 数据 集 上 ， 中 心 化 后 TCE 获得 了 最 好 的 


士 困 be 
性 能 提升 0.1367 01801 0.1258 0.1783 0.1743 结果 ， 达 到 0.3098 与 0.3351。 


由 于 在 WS-353 数据 集中 ， 中 心 化 后 的 GCE 模型 (GCE- 


1 https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 


201805.00288v1 
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C) 的 结果 最 好 ; 在 RW 数据 集中 
(TCE-C) 的 结果 最 好 。 因 此 ， 使 用 


， 中 心 化 后 的 


GCE-C 模型 、 


TCE 模型 
TCE-C 模 
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模型 结果 最 好 。 在 RW 数据 集中 
在 点 积 相似 度 和 余弦 相似 度 两 利 


型 


Es = 


型 、Skip-gram 模型 和 Glove 模型 在 两 个 数据 集 
结果 如 表 8 所 示 。 从 表 8 中 能 够 看 出 ， 在 WS-353 数据 集中 ， 
TCE-C 模型 和 GCE-C 模型 在 点 积 
法 中 的 结果 均 超过 Skip-gram 模型 和 


进行 比较 ， 


日 似 度 和 余弦 相似 度 两 种 方 
Glove 模型 ， 其 中 GCE-C 
PF，TCE-C 模型 和 GCE-C 模型 
方法 中 的 结果 均 超 过 Glove 模 


TCE-C 模型 的 结果 与 Skip-gram 模型 的 相当 。 


表 8 与 Skip-gram 和 


Glove 方法 比较 结果 


WS-353 RW 
名 称 点 积 余弦 点 积 余弦 
相似 度 “相似 度 相似 度 “相似 度 
TCE-C 0.6325 0.6253 0.3098 ”0.3351 
GCE-C 0.6401 0.6257 0.2989 0.3324 
Skip-gram 0.6229 0.6061 0.3321 0.3594 
Glove 0.6098 0.6205 0.3089 0.3321 


3.2.2 降 维 前 相似 度 和 矩阵 与 词 向 量 质量 关系 验证 


为 研究 降 维 前 相似 度 和 矩阵 与 词 向 


据 集 为 例 ， 对 实验 结果 进一步 分 析 。 本 文 认为 ， 降 


量 质量 的 关系 ， 


以 RW 数 


前 的 相似 


度 矩 阵 与 人 工 标注 结果 越 接近 则 质量 


越 好 ， 因 此 计算 了 降 维 前 


相似 度 矩 阵 与 数据 集中 给 出 的 人 工 标 
系数 ， 从 而 反映 相似 度 和 矩阵 的 质量 。 
值 与 词 向 量 质量 评价 结果 
的 对 应 关系 ; 图 
评价 结果 Spearman 相关 系数 余弦 


据 4 个 关系 图 能 够 发 现 ， 降 维 前 的 相似 度 和 矩阵 和 人 


注 结果 间 
图 3 和 


相似 度 ) 


降 维 后 词 向 量 质 量 
的 对 应 关系 。 根 


的 Pearson 相关 
4 为 上 述 Pearson 
Spearman 相关 系数 《点 积 相似 度 ) 

5 和 6 为 上 述 Pearson 值 与 


标注 的 结 


四 


果 的 Pearson 


相关 值 与 词 向 量 的 质量 呈 线 性 相关 ， 旧 


似 度 矩 阵 与 词 向 量 的 质量 呈 线 性 相关 。 


心 化 前 后 的 关系 图 发 现 ， 中 心 化 
的 质量 的 线性 相关 性 比 中 心 化 前 
相似 度 或 余弦 相 


性 相关 性 强 。 
以 度 下 ， 中 心 化 使 得 相似 度 和 矩阵 更 符合 人 工 标 
注 的 相似 度 ， 相 似 度 和 矩阵 更 加 合理 ， 从 1 


地 


Hh 降 维 前 相 


通过 对 比 图 3~6 中 的 中 
的 相似 度 矩 阵 与 词 向 量 
说 明 在 点 积 


j 提 升 词 向 量 的 质量 。 


词 向 量 质 量 “Spearman 相 关系 数 ) 
. 
en 


-0.1 0 0.1 02 
相似 度 矩 阵 质量 (Pearson 


0.3 0.4 
相关 系数 ) 


图 3 RW 数据 集 下 ， 中 心 化 前 相似 度 矩 阵 质量 与 词 向 量 质量 间 的 


关系 〈 词 向 量 相似 度 计 算 方法 为 点 积 相似 度 ) 


0.5 
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> 
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图 4 RW 数据 集 下 ， 中 心 化 后 相似 度 和 矩阵 质量 与 词 向 量 质量 间 的 


关系 〈 词 向 量 相似 度 计 算 方 法 为 点 积 相似 度 ) 


它 


0 0.1 0.2 0.3 0.4 
相似 度 和 矩阵 质量 (Pearson 相关 系数 ) 


图 5 RW 数据 集 下 ， 中 心 化 前 相似 度 和 矩阵 质量 与 词 向 量 质量 间 的 


关系 〈 词 向 量 相似 度 计 算 方法 为 余弦 相似 度 ) 


数 
© 
oo bb 
对 册 


Fd 
he 
on 


0.15 


词 向 量 质量 (Spearman 相 关系 数 ) 


0.1 0.12 


0.14 0.16 0.18 0.2 0.22 
相似 度 矩 阵 质量 (Pearson 相关 系数 ) 


0.24 0.26 0.28 


表 9 为 中 心 化 前 后 相似 度 矩 阵 的 质量 评 


图 6 RW 数据 集 下 ， 中 心 化 后 的 相似 度 矩 阵 质量 与 词 向 量 质量 间 的 


关系 〈 词 向 量 相似 度 计 算 方法 为 余弦 相似 度 ) 


价值 《相似 度 矩 阵 


和 人 工 标注 结果 的 Pearson 值 ) 与 词 向 量 质量 (Spearman 值 ) 


的 Pearson 


值 在 点 积 机 


中 心 化 后 的 相似 度 和 矩阵 更 能 符合 人 工 标注 的 相似 度 结果 ， 


相关 系数 。 从 表 9 中 能 够 看 出 ， 中 心 化 后 的 Pearson 
日 似 度 和 余弦 相似 度 中 都 高 于 中 心 化 前 ， 再 次 说 明 ， 
相似 


度 和 矩阵 更 力 


[ 合 


E。 由 此 可 见 ， 中 心 化 后 能 增强 相似 度 和 矩阵 与 词 


向 量 质 量 的 线性 相关 性 ， 相 似 度 和 矩阵 的 结果 更 符合 人 工 标 注 的 


士 四 
结果 ， 


相似 度 矩 阵 更 加 合理 ， 从 而 能 够 提升 词 向 量 的 质量 。 


录用 稿 
表 9 在 两 种 相似 度 计算 方法 下 ， 中 心 化 前 后 相似 度 矩 阵 质量 


与 词 向 量 质量 的 Pearson 相关 系数 


中 心 化 情况 ”点 积 相 似 度 ”余弦 相似 度 
中 心 化 后 0.9798 0.9611 
中 心 化 前 0.9518 0.8798 
4 ”结束 语 
本 文 提出 一 种 基于 中 心 化 相似 度 和 矩阵 的 词 向 量 方法 ， 对 词 
-上 下 文 共 现 矩 阵 计 算出 的 相似 度 和 矩阵 进行 中 心 化 后 再 进行 降 
维 得 到 词 向 量 ， 并 在 WS-353 和 RW 数据 集 上 的 词语 相似 性 任 


务 


中 验证 该 方法 的 有 效 性 。 
通 i 以 性 任务 的 实验 发 现 ， 本 文 提出 的 方法 对 词 向 


通过 词语 相 


阵 


本 


相 


时 


工 标 注 相 似 度 越 符 合 ， 词 向 量 质 量 越 好 ; b) 中 心 化 能 够 提高 


的 质量 有 较 大 的 提升 。 关 键 结论 如 下 : a)〉 降 维 前 相似 度 秆 
的 质量 与 词 向 量 的 质量 线性 相关 ， 即 降 维 前 相似 度 矩 阵 与 人 


到 
ul 


似 度 矩 阵 质量 ， 进 而 提高 词 向 量 质量 。 
基于 以 上 两 点 结论 ， 降 维 前 相似 度 矩 阵 的 质量 是 决定 词 向 
质量 的 关键 因素 ， 因 此 构造 好 的 相似 度 抵 阵 应 是 基于 和 矩阵 分 


Ba 


的 词 向 量 方法 的 工作 方向 。 那 么 ， 若 采用 半 监 督 方法 对 相似 


从 
的 


矩阵 的 值 进行 部 分 指导 ， 使 得 相似 度 和 矩阵 更 趋 于 指导 信息 ， 
而 提升 词 向 量 的 质量 ， 这 将 是 一 个 有 趣 的 研究 点 ， 也 是 未 来 
主要 工作 。 
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